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T-Mobile Deutschland GmbH 

Verfahren zur natOrllchen Spracherkennung auf Basis einer Generativen 
Transformations-ZPhrasenstruktur-Grammatik 

Die Erfindung betrifft ein Verfahren zur naturlichen Spracherkennung auf Basis einer 
Generativen Transfomnations-/Phrasenstruktur-Grammatll< (GT/PS-Grammar). 

Aktueile Spracherkennungssysteme mit naturlicher Spracherkennung (NLU = Natural 
Language Understanding) sind in der Lage, eine Vielzahl mdglicher AuBerungen zu 
verstehen und in komplexe Befehlsstrukturen umzusetzen, die 
Spracherkennungssysteme, z.B. Computer, zu bestimmten Aktionen veranlassen. 
Sie tun dies auf der Grundlage vorab definlerter sinnvoller !\/lustersatze, die von 
Applikatlonsentwicklem und sogenannten Dialog-Designem festgelegt werden. Diese 
Sammlung von IVIustersatzen - auch „Grammar" genannt - umfasst einzelne 
Kommemdoworte ebenso wie komplizierte Schachtelsatze, die an einer bestimmten 
Stelle des Dialogs sinnvoil sind. AuBert der Nutzer einen solchen Satz, wird er vom 
System mit groBer Sicherheit verstanden und die mit Ihm verkniipfte 
Handlungsanweisung wird ausgefuhrt. 

Be! der Programmierung einer Erkennungsapplikation, z.B. einer NLU- 
Telefonapplikation, ist die Grammar also ein unverzichtbarer Baustein. Sie wird mit 
Hilfe eines speziellen Werkzeugs, der sogenannten Grammar Specification 
Language (GSL) erzeugt. Mit ihr werden die zu verstehenden Worte sowie ihre 
Verknupfungen vorab reproduziert und fur den Spracherkenner festgeschrieben. Die 
vorgegebenen Satze werden dabei aus Wortkomblnationen gebildet, die 
untereinander austauschbar (paradigmatische Achse) und miteinander kombinierbar 
(syntagmatische Achse) sind. Ein Beisplel hierfQr ist in Figur 7 dargestellt. 
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Die moglichen AuBerungen ergeben sich aus der syntagmatischen Verknupfung der 
paradigmatlschen Wortkombinationen. Dass dabei auch Satze moglich werden, die 
grammatisch falsch sind. wie z.B. „Wurden Sie viellelcht Telly-Tarif ersetzen?" muss 
in Kauf genommen werden. urn das Antwortenspektrum mdglichst gro3 zu halten. 
Diese sogenannte „Overgeneration", das heiBt z.B. das Vorhalten bzw. Erkennen 
von unsinnigen IVIustersatzen oder Ausdriicken mit dem selben Sinngehalt, sollte 
jedocii gering gelialten werden, denn sie beansprucht betrachtliche 
Systemressourcen und setzt gleichzeitig die Erkennungsleistung lierab, weil das 
System jede NutzerauBerung mit einer Fuiie vorgegebener Satzkombination 
vergleichen muss, die kaum jamais geauBert werden. 

In der bisher Qblichen Praxis wurden die paradigmatischen Wortkombinationen in 
einer Weise festgelegt, die sclieinbar Zusammengehdriges verbindet. Dabei wurde 
von der bedeutungstragenden Qualitat der Worte ausgegangen. Dieses Verfahren. 
das von einem mutmaBlichen Erfolgssatz ausgeht, entspricht durchaus den 
Erfordemissen einfacher Applikationen und fuhrt hier zu zuf riedenstellenden 
Ergebnissen. Bei komplexen Anwendungen, mit einer FQIIe sinnvoller 
Antwortmoglichkeiten hingegen, werden diese herkSmmlichen Grammatiken so groB. 
dass sie selbst die Rechenkapazitat gegenwartiger Hochlelstungssen/er bis an die 
Grenze belasten. Die Folgen sind: 

Stark venmehrte Overgeneration 
SpClrbare Verzogerungen bei der Erkennung (Latency) 
Sinkende Erkennungssicherheit (Accuracy). 
Abgesenkte Systemstabilitat (Robustness) 

Der Hauptmangel dieser Methode besteht darin, dass die spezifizierten Satze 
ledigllch einer oberf lachlichen Kombinatorik folgen. Die erzeugte Overgeneration 1st 
deshalb so groB, weil die scheinbar zusammengehorigen Elemente tatsachlich 
anderen Kombinationsregein folgen, die in der Sprachwissenschaft selt ISngerem 
bekannt sind. 
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Zusammenfassend wird festgehalten, dass die derzeit verbreiteten Grammars, die 
festlegen, welche Satze von einem ASR-System erkannt warden, traditionellen 
grammatischen Konventionen folgen, die naturlich-sprachliche AuBerungen 
unzureicliend strukturiert abbilden. Dabei wurde bislang niclit von einer 
Differenzierung von „Oberflaclien-„ bzw. „Tiefenstrulcturen" ausgegangen. Die 
linguistische Hypothese besagt, dass eine syntaktisclie Tiefenstrulctur und deren 
..generative Umsetzung" liin zu l<onl<reten OberflSchenstrulcturen die 
Leistungsfaliigkeit eines Sprachsystems ausmacht. Wird be! stelgender Komplexitat 
aussciilieBlicli die bisher eingesetzte Oberflachenstrulctur venwendet, muss diese, 
urn ilirer Aufgabe dennocli gereclit zu werden, so groB dimensioniert sein, dass sie 
im Betrieb kaum nocli vemunftig gepflegt werden kann und die Sen/er bis an die 
Grenzen ilirer Kapazitat belastet. 

Die Aufgabe der Erfindung besteht darin, ein Verfaliren zur Spracfierkennung auf 
Basis einer Generativen Transfonriations-ZPhrasenstruktur-Grammatik anzugeben, 
das im Vergleicli zu lierkommllchen Erkennungsverfaliren weniger 
Systemressourcen bendtigt und dadurch eine sicliere und schnelie Erkennung von 
Sprache bei gleiclizeitiger Verrlngerung der Overgeneration ermogliclit. 

Diese Aufgabe wird erfindungsgemaB durch die l\/lerkmale des Patentanspruciis 1 
gelost. 

ErfindungsgemaB erfolgt eine Analyse einer gesprochenen Plirase auf darin 
enthaitene Triphone, eine Blldung von in der gesprocfienen Plirase entlialtenen 
Wortem aus den erkannten Tripfionen mit Hilfe von Lautwortdatenbasen 
(Dictionaries) und eine syntaktisclie Rekonstruklion der gesprochenen Phrase aus 
den erkannten Wortem unter Verwendung eines grammattischen Regelwerks 
(Grammar). 

Vorteilhafle Ausgestaltungen und Welterbildungen der Erfindung ergeben sich aus 
den IVIerkmalen der UnteransprQche. 
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Besonders markant ist der Gegensatz zwischen dem erf indungsgemSBen Verfahren 
und der traditionellen Grammar Specification Unguage, die bei kleinen Applikationen 
auch mit syntaktischen Oberflachen. d.h. konkretes Ausfomnulieren von 
Erfolgssatzen, gute Resuitate erzielte. 

ErfindungsgemaB werden die Verknupfungsregeln grammatischer Satze nicht an der 
Oberflaclie reproduzlert. sondem die Tiefenstrukturen aufgezeigt, denen die 
syntagmatischen VerknOpfungen aller indogermanischen Spraclnen folgen. Jeder 
Satz wird anhand eines syntaktisclien IVIodells in Fomn von sogenannten 
Strukturbaumen besclirieben. 

Die GT/PS-Grammar orientiert sich nicht an den potenzieiien AuBerungen einer 
spezifischen Applikation, sondem an der Tiefenstruklur der Syntax 
(Satzbildungsregeln) indogermanischer Sprachen. Sie iiefert ein GerOst, das mit 
verschiedenen Worten gefullt werden kann und die Realitat der gesprochenen 
Sprache besser abbiidet, als das bisher praktizierte „mimetische« Verfahren. 

Innerhalb der durch die Strukturbaume beschriebenen Tiefenstmkturen wird 
erkennbar, dass sich bestimmte Phrasen innerhaib eines Satzes wiederholen. 
Solche Wiederholungen konnen mit Hilfe der GSL reproduziert und aufgefangen 
werden. Dadurch sinkt nicht nur der Umfang einer Grammar erheblich. sondem auch 
die Overgeneration von grammatisch inkorrekten Satzen sinkt betrachtlich. 

Wahrend in der traditionellen GSL-Grammar z.B. mnd 500 Subgrammars in sieben 
hierarchischen Ebenen miteinander verf lochten sind, kann die Anzahl der 
Subgrammars im GT/PS-IVIodell auf z.B. 30 Subgrammars in nur zwei hierarchischen 
Ebenen reduziert werden. 

Der neue Grammartyp bildet natOrlich-sprachliche AuBemngen in stmkturlerter Fonn 
ab und hat dabei z.B. nur rund 25% der GroBe der bisherlgen Grammar. Aufgrund 
ihrer geringen GrSBe ist diese Grammar einfacher zu pflegen. wobei die Zeiten fiir 
Kompiiierung rapide sinken. Aufgrund ihrer geringen GroBe steigt die 
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Erkennungsslcherheit (Accuracy) und sinkt die Erkennungsverzogerung (Latency). 
Die al<tuellen Rechnerkapazitaten warden besser ausgenutzt und die Perfoimance 
der Server steigt. Daruber hinaus ist die neue Grammar niciit auf eine bestimmte 
Applikation bezogen, sondem kann in ihren Grundstrukturen fQr unterschiedliche 
Anwendungen. venwendet werden. wodurcii die Homogenitat der Systeme gesteigert 
und die Entwicklungszeiten reduziert werden. 

Der universale Code der Tiefenstruktur emaoglicht den Einsatz und die 
WertschSpfung fQr multiiinguale Sprachsysteme in einer bislang niclit erreiciiten 
Dimension, besonders die westeuropaisclien Standardspractien konnen mit 
vergleichsweise geringem Aufwand verarbeitet werden. 

Im Unterschied zur bisherigen Grammar fur natiirlich-spraclnliclie Dialogapplikationen 
basiert die neue GT/PS Grammar auf aktuellen spracliwissenschaftlichen Modellen, 
die naturlich-sprachliche AuBerungen im Raiimen von Oberflachen- und 
Tiefenstrukturen abbiiden. Die abstrakten Stmkturmuster werden mit einer Grammar 
Specification Language (GSL) in ein hierarchisch verschachteltes und vemetztes 
Regelwerk ubertragen, dessen Strukturen in der beiden Aniagen abgebildet sind. 

Die technischen Vorziige der GT/PS-Grammar sind damit: 

Die GT/PS-Grammar ist sehr viei kleiner als die bisherige Grammar, weil sie 
statt der bisher bis zu sieben Subgrammarlevels nur nocli mit zwei Ebenen 
auskommt; 

- Die Zahl der von der Grammar abgedecklen aber grammatiscli falschen Satze 
(Overgeneration) sinkl drastisch; 

- Sie benotlgt nur noch rund ein Drittel der bislang venwendeten Slots; 

. Sie fQllt entgegen der iieutigen Spracherkenner-Philosophie die Slots in den 

unteren Grammar-Ebenen, statt in den oberen; 
. Sie nutzt das von der GSL (Grammar Specification Language) berelt gestellte 

Instrument, Slotwerte in hohere Grammarlevels hoch zu reichen, konsequent 

aus; 
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Sle besitzt einen neuen Slot mit der Bezeichnung ACTION, der nur noch mit den 
Werten GET und KILL gefQIlt werden kann; 
sie arbeltet mit Inelnander verschachtelten Slots, die hochgradig 
multitaskingfahig sind. 

Sie fiihrt zu einer Verbesserung der Erkennerlelstung 

Sie ermogliclit eine vereinfachte Option zur Einfiihrung mehrsprachiger 

Applikationen 

Sie waist eine nahtlose Integrationsfaliigkeit in Nuance Teciinologie auf 



Die wirtschaftllchen Vorzuge der PSG sind: 



Verrlngerung der Hardwarekosten durch bessere Ausnutzung der 
Systemressourcen 

Ven-lngerung der Ubertragungszeiten durch leistungsfahigere Erkennung 
EInsparung von Personalressourcen durch leichtere RIegbarkelt 
Gr53ere Kundenzufriedenheit 

Anwendbar auf alle Weltsprachen (Englisch bis Chinesisch) 

Nachfolgend wird die Erfindung anhand eines vereinfachten AusfQhrungsbeispiels 
unter Bezugnahme auf die Zeichnungen naher erlautert. Aus den Zeichnungen und 
deren Beschreibung ergeben sich weitere l\/lerkmale, Vorteile und 
Anwendungsmoglichkeiten der Erfindung. 
Es zelgt. 



Figur 1 : Eine Triphonanalyse als ersten Schritt im Erkennungsprozess; 

Figur 2: Eine Worterkennung aus den erkannten Triphonen als zweiten Schritt 

im Erkennungsprozess; 
Figur 3;: eine syntaklische Rekonstruktlon der erkannten Worter als dritten 

Schritt des Erkennungsprozesses; 
Figur 4: Ein Beispiel fCir die Gliedemng der erkannten Worter in 

Wortartenkategorien sowie in nominate und verbale Phrasen; 
Figur 5: Ein Programmbeispiel fiir eine mogliche Grammar; 
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FIgur 6: Eine Obereicht Qber die Struktur einer PSG Grammar; 
Figur 7: Ein Beispiel fQr eine Bildung von Wortkombinationen bei einer Grammar 
nach den Stand derTechnik. 

Figur 1 zeigt den ersten Schritt einer Spracherkennung: die Triphonanalyse. Der 
kontinuierliciie Redefluss eine Person 1 wird z.B. von einem Mikrofon eines Telefons 
angenommen und als analoges Signal einem Spraclierkenner 2 zugefuhrt. Dort wird 
das analoge Sprachsignal in ein digitales Spraciisignal 3 umgewandelt. Das 
Spraciisignal entlialt eine VieizainI von Triphonen, d.li. Lautsegmenten, die im 
Spracherkenner 2 mit vorhandenen, d.h. vorgegebenen Triphon-VerknQpfungsregeIn 
abgegliclien warden. Die vorhandenen Triphone sind in einer Datenbasis 
abgespeichert, die ein oder mehrere Lautworterbiiclier entlialt. Die erkannten 
Triphone llegen dann als eine Triphon-Kette 4 vor, z.B. „pro", „rot", „ote", „tel". 

In einem zweiten Schritt gemaB Figur 2 warden aus den ericannten Triphonen 
sinnvolle Worter gebildet. Dazu wird die vorhandene Triphon-Kette 4 mit in einem 
weiteren LautwSrtertDUch 5 abgespeicherten, vorgegebenen Wortem 6, z.B. „profi", 
„portal", „protel", „hotel", vergliohen. Das LautworteriDuch 5 kann einen bestimmten 
Wortsohatz aus der Umgangssprache sowie einen auf die jeweiiige Anwendung 
zugeschnittenen, spezielien Wortsohatz umfassen. Stimmen die erkannten Triphone, 
z.B. „pro" und „tel", mit den in einem Wort, z.B. „protel", enthaltenen Triphonen 
uberein, wird das entsprechende Wort 7 als solches erkannt: ..protel". 

im nachsten Schritt, dargestellt in Figur 3, erfolgt die syntaktische Rekonstruktion der 
eri<annten Worter 7 mit Hilfe der Grammar 8. Dazu warden die eri<annten Worter 
ihren Wortartkategorien, wie Nomen, Verta, Adverts, Artlkel, Adjektiv, etc. zugeordnet, 
wie dies in Figur 6 dargestellt ist. Dies erfolgt anhand von in Wortartkategorien 
unterteilten Datenbasen, Wie man in Figur 5 ert<ennt, konnen die Datenbasen 9-15 
sowohl die oben enwahnten. heri<ommlichen Wortartkategorien als auch spezielle 
Wortartkategorien, wie z.B. Ja/Nein Grammtik 9, Telefonnummem 14, 15, enthalten. 
Zudem kann eine Eri<ennung von DTMF-Eingaben 16 vorgesehen sein. 
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Die beschriebene Zuordnung der Wortartkategorie zu den erkannten Worten kann 
bereits wShrend des Worterkennungsprozesses erfolgen. 

Im nachsten Schritt (Schritt 17) werden die erkannten Wdrter anhand ihrer 
Wortkategorien einer VerbalPhrase, d.li. einer auf einem Verb basierenden Phrase, 
und einer NominalPhrase, d.h. einer auf einem Nomen basierenden Piirase, 
zugeordnet, vgl. Figur 6. 

Danach werden die NomialPhrasen und VerbalPhrasen nacii phrasenstrukturellen 
Gesichtspunkten in Objekten zusammengefuhrt. 

In Schritt 18 werden die Objekte fQr das Multitasking mit der entsprechenden 
sprachgesteuerten Anwendung verknupft. 

Jedes Objekt 19 umfasst einen In der Grammar 8 hinterlegten Zielsatz, genauer 
gesagt ein Satzmodell. Aus Figur 4 geht hen^or, dass ein solches Satzmodeli z.B. 
durch eine Wortreihenfolge „Subjekt, Verb, Objekt" oder „Objekt, Verb, Subjekl" 
definiert sein kann. Viele andere Satzbaustaikturen sind In dieser allgemelnen Forni 
in der Grammar 8 hinterlegt. Entsprechen die Wortkategorien der erkannten Worter 7 
der Reihenfolge eines der vorgegebenen Satzmodelle, so werden sie dem 
zugehorigen Objekt zugeordnet. Der Satz gilt als erkannt. Anders ausgedruckt 
umfasst jedes Satzmodell eine Anzahl von den verschiedenen Wortkategorien 
zugeordneten Variablen. die mit den entsprechenden Wortkategorien der eri<annten 
W6rter 7 gefullt werden. 

Das Verfahren bedlent sich der tradltionellen Grammar Specification Language 
(GSL), strukturlert die hinterlegten Satze jedoch In innovativer Welse. Dabel orientiert 
sie sich an den Regein der Phrasenstrukturgrammatik und am Konzept einer 
Generativen Transformationsgrammatik. 

Durch die konsequente Anwendung der dort beschriebenen Tiefenstmkturen eines 
Satzes, insbesondere der Unterscheldung von Nominalphrasen und Verbalphrasen, 
steht sie der Satzkonstitution der naturllchen Sprache sehr vie! naher als die bislang 
vorherrschenden intuitiven Grammarkonzepte. 
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Die GT/PS-Grammar basiert somit auf einer theoretischen Modellbildung, die 
geelgnet ist, die abstrakten Prinzipien natQrlichsprachliclier AuBemngen zu ermitteln. 
Auf dem Gebiet modemer Spraclierkennungssysteme eroffnet sie erstmals die 
M6glichl<eit, die Abstral<tion von Satzbildungsregein gleiclisam umzulcehren und als 
Vorhersage der Au3erungen von Applil<ationsnutzem zu l<onl<retisieren. Damit wird 
ein systematisclier Zugriff auf Spracherkennungs-Grammars moglicii, die bislang 
stets auf der intuitiven Akkumulation von Beispielsatzen beruliten. 

Ein zentrales Merlcmal fierkommlicher und GT/PS-Gramnnars ist die fiierarcliische 
Verschaclitelung In sogenannte Subgrammars, die einzelne Worte wie Variablen auf 
der hSchsten Ebene zu einem ganzen Satz zusammensetzen. Die GT/PS-Grammar 
ist in diesem Punkt sehr viel l<leiner und liierarcfiiscfi viel Qbersicfitliclier als die 
bisher bekannten Grammars. Im Unterscfiied zu herkommliclien Grammars sind in 
der neuen Grammar fast ausschiieBlich „sinnvolie" Satze hinteriegt, so dass das MaB 
an Overgeneration, d.fi. fiinterlegte Satze, die im naturlichsprachllchen Sinne faisch 
sind, sinlct. Dies ist wiederum die Voraussetzung fur eine verbesserte 
Erkennerieistung, da die Appllkation nur zwischen wenigen hinterlegten Altemativen 
wafilen muss. 



T02008 DE 




PatentansprQche 

1 . Verfahren zur naturlichen Spracherkennung auf Basis einer Generative 
Transformatlons-ZPhrasenstrulctur-Grammatik, gekennzeichnet durch die 
Scliritte: 

- Analyse einer gesproclnenen Phrase auf darin enthaltene Triphone; 

- Biidung von in der gesprociienen Phrase enthaltenen Wortem aus den 
erkannten Triphonen mit Hilfe von Lautwortdatenbasen (Dictionaries); und 

- Syntaktische Rekonstruktion der gesprochenen Phrase aus den erkannten 
Wortem unter Verwendung eines grammatischen Regelwerks (Grammar). 

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die syntaktische 
Rekonstruktion der gesprochenen Phrase die Schritte umfasst: 

- Zuordnung der erkannten Worter zu Wortartenkategorien (Veit), Nomen etc.) 

- Zuordnung der Wortartenkategorien zu Nominalphrasen und Verbalphrasen; 

- Zusammenfuhrung der Nominalphrasen und Verbalphrasen nach 
syntaktischen Regein in Objekten unter Vorgabe verschiedene Satzmodelle, 
wobei die erkannten Wortfolgen mit den vorgegebenen Satzmodellen 
verglichen werden, wobei im Fall einer Ubereinstimmung der Satz als erkannt 
gilt und eine Aktion in einer sprachgesteuerten Applikation auslost. 

3. Verfahren nach einem der Anspriiche 1 oder 2, dadurch gekennzeichnet, dass 
jedes Satzmodell eine Anzahl von Wortkategorien zugeordneten Variablen 
aufweisen, die mit den entsprechenden Wortkategorien der erkannten Worter 
gefullt werden. 

4. Verfahren nach einem der AnsprQche 1 bis 3, dadurch gekennzeichnet, dass die 
zu erkennenden Worte in verschiedene Wortkategorien untergliedert in den 
Wortdatenbasen vorgehalten werden. 
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5. Verfahren nach eine der AnsprQche 1 bis 4, dadurch gekennzeichnet, dass die 
Objekte oder Telle davon mit entsprechenden Aktionsparametem einer 
spracligesteuerten Applil<ation verknQpft werden. 
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Zusammenfassung 

Die Erfindung betrifft ein Verfahren zur naturlichen Spracherkennung auf Basis einer 
Generativen Transformations-ZPhrasenstruktur-Grammatik Die GT-/PS-Grammar. 
ErfindungsgemaB erfolgt eine Analyse einer gesprochenen Phrase auf darin 
enthaltene Triphone, eine Bildung von In der gesprochenen Phrase enthaltenen 
W5rtem aus den erkannten Triphonen mit Hilfe von Lautwortdatenbasen 
(Dictionaries) und eine syntaktlsche Rekonstmktion der gesprochenen Phrase aus 
den erkannten W6rtem unter Venwendung eines grammatischen Regelweri<s 
(Grammar). 

Die GT-/PS-Grammar 1st ein neuartlges Verfahren, Zlelsatze In der Grammar zu 
hinterlegen. Sle bedient sich der tradltioneiien Grammar Speolficatlon Language 
(GSL), strukturiert die hinteriegten SStze jedoch in innovatlver Weise. Dabel orientiert 
sie sich an den Regeln der Phrasenstrukturgrammatik und an Noam Ghomskys 
Konzept einer Generativen Transformationsgrammatlk. 
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